09. 练习:目标和奖励
练习:目标和奖励
到目前为止,你已经见过一个如何将智能体的目标构建为最大化预期累积奖励的示例。在这道练习中,你将研究另外几个示例。

来源:维基百科
逃脱迷宫
SOLUTION:
- 智能体待在迷宫中的每个时间步,奖励都是 -1。智能体逃脱后,这个阶段结束。
- 智能体待在迷宫中的每个时间步,奖励都是 -1。智能体逃脱后,获得奖励 +10,并且这个阶段结束。

来源:维基百科
SOLUTION:
- 智能体仅在游戏结束时获得奖励;如果获胜,则获得奖励 +1,如果失败了,则获得奖励 -1,如果持平,则获得奖励 0。
- 智能体仅在游戏结束时获得奖励,如果获胜,获得奖励 +10,如果失败,获得奖励 -10,如果持平,获得奖励 0。
SOLUTION:
- 在每个时间步,当智能体使头上的碟子保持平衡时,奖励是 +1。如果碟子掉下来了,这一阶段结束。